Agent 是不是在绕开训练模型?

2026-02-09 | 浏览: -

读 Hello-Agents 的第十章和第十一章时,我逐渐意识到一件事:

我们现在谈论的大多数 Agent 内容,本质上不是在讨论“智能”,而是在讨论“工程补丁”。

这不是贬义,而是一个阶段性的事实。


一、Agent 协议看似繁荣,其实解决的是“协作”,不是“能力”

第十章介绍了三种所谓的“智能体通信协议”:MCP、A2A 和 ANP。

它们确实重要,但重要的方式,可能和很多人想象的不太一样。

**MCP(Model Context Protocol)**解决的是:

Agent 如何以一种更工程化的方式使用工具

它强调“上下文共享”,但从实现上看,更准确的说法是:

为 Agent 与工具之间的交互,提供一个有生命周期的上下文容器,而不是每次调用都重新塞 prompt。

这是工程进步,但它并没有让 Agent 变“更聪明”,只是让调用工具这件事更干净、更可维护。

A2AANP 则把问题推向另一个层面:

Agent 如何调用 Agent?
Agent 如何在网络中发现其他 Agent?

逻辑上它们成立,工程上也很优雅,但 Hello-Agents 自己也承认:
这些都还处在非常早期的阶段。

所以到这里,一个事实已经很清楚了:

当前最成熟、最可用的 Agent 技术,并没有提升模型能力,而是在补偿模型的不稳定性。

这句话,是后面所有困惑的起点。


二、第十一章让我真正困惑的,不是 RL,而是“到底在训练谁”

如果说协议只是“我有所保留”,那第十一章的 Agentic Reinforcement Learning,第一次让我明确卡住了。

问题其实很简单:

  • LLM 的强化学习我能理解

  • 但 Agent 的强化学习,训练的到底是什么?

Gemini 给了一个非常直接的回答:

物理上,你是在训练 LLM 的权重;
逻辑上,你是在训练这个模型扮演“Agent”的方式。

ChatGPT 的说法更工程一些:

Agent 不是被训练的实体,它是一个由 LLM 驱动、在环境中反复决策的系统。

把这两种说法合在一起,结论反而非常清楚:

所谓 Agentic RL,本质上仍然是 LLM 训练。
Agent 并没有“学会”什么,它只是表现为一种被训练过的策略集合。

最终交付给用户的,依然只是一个权重文件。


三、一个越来越难忽视的问题:我们是不是在用框架,绕开“训练模型”?

到这里,我反而更加坚定了一个从一开始就隐约存在的想法:

现在大家拼命讨论 Agent 框架、范式、协作,本质上是不是在回避一件更难的事:训练模型?

知乎上有个很火的问题:
Qwen3-0.6B 这种小模型有什么意义?

换个角度问可能更刺耳:

对于大量窄任务 Agent,为什么不直接训练一个 0.6B 的专用模型?

Gemini 的回答非常“现实主义”,甚至有点残酷。

它认为现在大家之所以卷框架,是因为:

  • 用的是通用大模型

  • 模型太聪明、太发散、太不可控

  • 框架的本质,是用大量工程手段去约束一个不合适的模型

它给了一个很形象的比喻:

你雇了一个绝顶聪明、热爱写诗的诗人来拧螺丝。
因为他总想写诗,你只好安排一整套监工系统盯着他。

而真正的终局是:

直接训练一个只会拧螺丝的小模型。

不需要监工,也不需要复杂框架。


四、那为什么现在 Agent 仍然有意义?

答案其实很朴素:数据。

在你能训练一个稳定、可靠的 0.6B 专用模型之前,你需要大量高质量的行为数据。

而这些数据从哪来?

Gemini 给出的路径,我认为是目前最符合现实的 Agent 落地闭环:

  1. 原型期:用大模型 + Agent 框架跑通流程

  2. 蒸馏期:记录成功运行的轨迹,形成高质量数据

  3. 工程化期:微调小模型,抛弃复杂框架

如果这个判断成立,那么一个略显反直觉的结论就出现了:

Agent 框架,可能并不是终局,而是为了走向“专用模型时代”的过渡工具。

最近很火的 MiroThinker,用 30B 权重跑出接近大模型的能力,也许正是这个方向的一个信号。

Agent 会不会消失?我不知道。

但我越来越怀疑:
当模型足够“对口”,我们今天热烈讨论的很多 Agent 问题,可能会自然蒸发。

后记:我知道在OpenClaw爆火出圈的今天发表这样的观点肯定会被人吐槽外行。不要紧,咱们下次再聊,也许我有点其他的观点呢?让子弹再飞一会儿。

标签: 人工智能Agent框架模型训练工程化思维技术反思

留言

加载中...